演讲

GTC 2025 — Blackwell Ultra 与 Vera Rubin

开场：一切始于 GeForce，而 GeForce 回到了 AI

黄仁勋一开场就拿起一张 GeForce RTX 5090：25 年了，GeForce 还在全球卖断货。但他真正想说的不是游戏卡本身，而是一个闭环——"GeForce 把 CUDA 平台带到了世界，CUDA 让 AI 成为可能，而今天 AI 又回过头来彻底改写了计算机图形学"。他展示的实时画面里，每渲染 1 个像素，AI 要推理出另外 15 个；这 15 个像素必须在数学上正确，还要在帧与帧之间保持时序稳定。"为每一个被数学渲染出的像素，AI 推理出另外 15 个。"

他把这件事当成整个演讲的隐喻：十年前，AI 刚刚进入人类意识；最近五年我们主要在做生成式 AI，教 AI 把一种模态翻译成另一种——文本到图像、文本到视频、氨基酸到蛋白质、属性到化学分子。这彻底改变了计算的本质："过去我们是检索式计算，提前把内容造好、存下来、用的时候取出来；今天我们是生成式计算，AI 理解上下文、理解我们在问什么，然后生成答案。"

推理时代：世界错估了算力需求 100 倍

这是整场最重要的判断。黄仁勋说："去年这个时候，几乎全世界都搞错了一件事。AI 的 scaling law 不仅没有放缓，反而被极度加速。我们今天所需的算力，因为 agentic AI、因为 reasoning，轻轻松松就比一年前估算的多出 100 倍。"

他为什么这么说？因为推理时代的底层机制变了：两年前的 ChatGPT 是 one-shot——学到什么就一股脑倒出来，简单问题都会答错。而今天的 reasoning 模型会一步一步思考，用 chain-of-thought、best-of-N、一致性检查、路径规划这些技巧。它甚至会把自己的答案代回方程验证——"就像你解完一元二次方程再代回去检查那样"。

带来的后果是：生成的 token 数量爆炸式上升。原来吐一个 token，现在要吐几千上万个；而为了让用户不失去耐心，你又必须把速度再提升 10 倍。"10 倍的 token × 10 倍的速度 = 100 倍的算力，轻松翻番不止。"

更妙的是数据从哪来的问题也被解决了。过去的瓶颈是"人在回路"——人类给的标注就那么多。现在靠强化学习 + 可验证结果：数学题、勾股定理、数独、几何证明、物理定律……人类已经知道答案的问题空间何止千万。你让 AI 尝试百万次、每次几万个 token，"合成数据生成 + 机器人式自教学"的组合，产生了训练模型所需的数万亿 token。

AI 工厂：从检索到生成，数据中心的物种更替

黄仁勋在这里抛出了他反复讲了一年多的核心叙事：数据中心正在变成 AI 工厂。

他指着一张显示全球数据中心资本支出将冲到一万亿美元的图表说："我之前说过数据中心建设会达到一万亿美元，我现在非常确信我们很快就会到。两种动态在同时发生。"

第一种动态：加速计算吃掉绝大部分增长。"通用计算早就走到尽头了，我们早就知道这点。世界正在从'手写软件跑在通用计算机上'迁移到'机器学习软件跑在加速器和 GPU 上'。现在已经过了临界点，我们看到数据中心的拐点正在发生。"

第二种动态：软件的未来需要资本投资。"过去我们写软件、跑在计算机上；未来，计算机本身会生成软件的 token。计算机从一个文件检索器变成了 token 生成器。从检索式计算走向生成式计算，从老的数据中心走向一种新的基础设施——我叫它们 AI 工厂。它们只有一个任务：生成这些 token，然后我们把这些 token 重组成音乐、文字、视频、研究、化学分子、蛋白质。"

他把最得意的一张幻灯片拿出来——那张密密麻麻罗列 CUDA-X 库的图——说："这是我 20 年来每次 GTC 都在讲的事。cuLitho 把计算光刻加速了，未来每一家有工厂的公司都会有两个工厂：一个造产品，一个造产品背后的 AI。造汽车的工厂和造'汽车 AI'的工厂。"cuOPT 即将开源、cuDSS 加速 CAE、Warp 做物理仿真、Earth-2 做天气预测、cuQuantum 做量子模拟……"人们以为 CUDA 是一个软件，其实 CUDA 之上有一整个库的生态，而正是这些库让 AI 成为可能。"

先 Scale Up，再 Scale Out：Blackwell 机柜的设计哲学

这是全场的硬件高潮。黄仁勋搬出一块 70 磅重的上代 HGX，又搬出一整个 Blackwell NVLink72 机柜，来讲清楚 NVIDIA 为什么要把整机柜当成一颗芯片卖。

"分布式计算的本质是让很多台机器一起解决一个很大的问题，但没有什么能替代 scale up——在你 scale out 之前，你必须先 scale up。两者都重要，但顺序不能错。"（Scale Up 与 Scale Out）

"Hadoop 是天才的想法，它让超大规模数据中心用一堆现成的商用机器解决巨型问题。但我们现在要解的问题太复杂了，那种做法要烧掉的电太多了。如果只靠 scale out，深度学习根本不会发生。所以我们必须先 scale up。"

他解释了为什么要 disaggregate NVLink——把 NVLink 交换机从主板上拆出来、做成独立的交换托盘放到机柜正中间。"结果就是这个：整柜液冷，一台机柜有 60 万个零部件——相当于 20 辆汽车的零件数——120 千瓦，一台 exaflops 级别的计算机挤进一个机柜。"

为什么要这么拼？"因为我们真正想造的是这颗芯片——130 万亿晶体管，其中 20 万亿用于计算。但没有哪条 reticle 极限、哪个工艺节点能做出这颗芯片。所以我们把它 disaggregate 成 Grace Blackwell NVLink72 机柜。这是人类做过的最极致的 scale up。"

这背后还藏着一个更深的判断——数据中心即计算机。"虽然我们谈芯片，但你永远必须从 scale up 开始。芯片不是产品，机柜才是产品，AI 工厂才是产品。"

推理即生意：为什么 Blackwell 比 Hopper 快 40 倍

黄仁勋花了很大篇幅解释一张"token 生产函数"图表。X 轴是单用户每秒 token 数（响应速度），Y 轴是整个工厂每秒 token 数（总产能）。

"推理被很多人误解成一个简单的任务，其实它是终极的极限计算问题。因为推理就是工厂在生产 token，而工厂等于收入和利润，或者没有收入和利润。这个工厂必须以极致的效率和极致的性能来建造，因为它的一切都直接影响你的服务质量、你的收入、你的利润率。"

这里藏着一个很深的工业逻辑：批处理和延迟是一对根本矛盾——你要么把很多请求攒起来一起做（吞吐量高但单用户慢），要么立刻响应（单用户快但总产出低）。"最理想的答案是一个直角的方块——既快又多——但现实中没有工厂能做到。你能做的是最大化曲线下的面积。"

然后他展示杀招：Hopper 一台 1 兆瓦工厂能做到每用户 100 tokens/秒、总产能 250 万 tokens/秒。换到 Blackwell NVLink72 + FP4 + Dynamo，在同样的 reasoning workload 下，"Blackwell 是 Hopper 的 40 倍。一代之内 25 倍的 ISO Power 提升。这就是摩尔定律过去一直在承诺的东西——但现在这是 ISO power，不是 ISO chip，不是 ISO transistor，是 ISO power。能源才是终极瓶颈。"

他顺嘴甩出一句金句："未来每一座数据中心都是 power limited 的。你的收入由你能拿到多少电力决定。"然后自嘲："我是 chief revenue destroyer。我的销售团队要抓狂了——我刚说过 Blackwell 开始放量的时候，Hopper 你送人都没人要。"

NVIDIA Dynamo：AI 工厂的操作系统

在 reasoning 场景里，一件事情变得前所未有地复杂：同一次问答会分成两个阶段——prefill（思考、读 PDF、逛 94 个网站做深度研究）和 decode（吐字）。prefill 吃 FLOPS，decode 吃带宽。

"同一台机器，同一批 GPU，我可能需要动态地把更多 GPU 分配给 prefill、更少给 decode——或者反过来。再加上 tensor parallel、pipeline parallel、expert parallel、in-flight batching、disaggregated inference、KV cache 路由……这个软件复杂到令人发指。所以今天，我们发布 NVIDIA Dynamo。"

"Dynamo 本质上是 AI 工厂的操作系统。过去数据中心的操作系统是 VMware，它调度一堆企业 IT 应用。未来不是企业 IT 了，而是 agents；操作系统也不是 VMware 了，而是 Dynamo。而这个操作系统运行在上面的不是数据中心，是 AI 工厂。"

为什么叫 Dynamo？"因为发电机是上一次工业革命的第一件工具。水进去、电出来。烧开水变蒸汽，然后出来的是一种看不见却极其有价值的东西。我们把这个软件命名为 Dynamo，因为我们正在开启下一场革命。"Dynamo 是开源的。

年更节奏：Blackwell Ultra → Vera Rubin → Rubin Ultra → Feynman

"我花了那么多时间讲路线图，是因为建 AI 工厂要提前两三年规划土地、电力、CapEx、工程团队。这不是买笔记本电脑，不是随意开销。所以我必须把未来几年铺在你们面前，这样我不会在明年 5 月突然给你们来一个大惊喜。"

今年下半年：Blackwell Ultra NVLink72。FLOPS 提升 1.5 倍、内存提升 1.5 倍（KV cache 会感谢你）、网络带宽翻倍。同架构平滑升级。
明年下半年：Vera Rubin NVLink144。纪念发现暗物质的天文学家 Vera Rubin。全新 CPU（比 Grace 快一倍、只有 50 瓦）、全新 GPU、全新 NVLink6、全新 HBM4——"除了机箱以外什么都是新的"。他在这里也纠正了一个命名错误："过去我把一颗 Blackwell 芯片算成一个 GPU，其实是两个 die。从现在开始，每一个 GPU die 就是一个 GPU。所以 NVLink144 = 144 个 GPU。"（Vera Rubin）
2027 下半年：Rubin Ultra NVLink576。每机柜 600 千瓦、250 万个零件、15 exaflops scale-up、4.6 PB/s scale-up 带宽。"别看这只是 1 exaflops 到 15 exaflops 的跳跃——Hopper 记为 1 倍，Blackwell 是 68 倍，Rubin 是 900 倍 scale-up FLOPS。"
再下一代：Feynman。

"每年一次架构迭代，每两年一条新产品线——我们把硅片风险、网络风险、机箱风险拆成几块分别承担，这样行业才能跟着我们向前。"

硅光子：为什么机柜之外必须用光

机柜内部用铜线是最佳选择——可靠、便宜、省电——"铜能走 1-2 米就走 1-2 米"。但数据中心已经大到一个体育场，下一代要把几十万、几百万颗 GPU 连在一起，必须用光。

黄仁勋吐槽 transceivers 是个隐藏的能量黑洞："每一个插件 30 瓦、1000 美元。如果你有 100 万 GPU × 6 个收发器 × 30 瓦 = 180 兆瓦的 transceivers——它们什么运算都没做，只是在挪信号。"

"所以我们做了全球第一款 1.6 Tbps CPO——基于 micro ring resonator modulator (MRM) 的硅光子技术，完全用台积电 COUPE 工艺生产。过去五年我们押了巨大的技术风险，申请了几百项专利。这样我们就可以在数据中心里省下几十兆瓦——60 兆瓦等于 100 个 Rubin Ultra 机柜的电。"这是对 TSMC 工艺栈又一次深度的 Extreme Co-Design。

企业计算：DGX Spark 与 DGX Station

"机器学习重写了整个计算栈——处理器不一样了、操作系统不一样了、上层应用不一样了。连访问数据的方式都不一样了：以后你不再去精确检索数据，你问 Perplexity 就好了。企业 IT 也会一样——我们会有 AI agents，成为数字劳动力的一部分。"

"全球有 10 亿知识工作者，未来可能会有 100 亿数字工作者与我们并肩工作。到今年底，100% 的 NVIDIA 软件工程师都会被 AI 辅助。我非常确定。"

他搬出 DGX Station 和 DGX Spark："这就是 PC 该有的样子。20 petaflops、72 个 CPU 核心、chip-to-chip interface、HBM 内存，甚至还留了个 PCIe 插槽给 GeForce。这就是 AI 时代的计算机。"存储也要彻底重写——从"检索式存储"变成"语义式存储"，数据会被后台持续地 embedding 成知识，你再也不是去 retrieve，而是去"问"。

机器人：可能是有史以来最大的产业

"本 decade 结束前，世界将缺少至少 5000 万个人类劳动力。我们会非常乐意付每人 5 万美元年薪——可现在我们大概要付 5 万美元年薪给机器人。"

物理 AI 的难题和前面讲的一样：数据从哪来、模型架构是什么、scaling law 怎么做？但在物理 AI 里，可验证奖励是什么？"很简单——物理定律。所以我们需要一个物理引擎，专门为细粒度刚体 / 软体、触觉反馈、精细运动控制而设计，要 GPU 加速到可以在超实时的速度里训练，而且要无缝集成进全球 roboticist 用的 MuJoCo。"

"今天我们宣布 Newton——DeepMind、Disney Research、NVIDIA 三方合作的物理引擎。"小机器人 Blue 从后台走出来，黄仁勋对着它说："Hey Blue, how do you like your new physics engine? 你刚才看到的是完全实时的物理模拟。这就是未来我们训练机器人的方式。"

他还开源了 Isaac GR00T N1——一个面向人形机器人的通用基础模型，双系统架构（快思考 + 慢思考），灵感来自人类认知科学。"物理 AI 和机器人正在飞速前进。所有人注意这个方向，这很可能是有史以来最大的产业。"

谢幕：三层 AI 基础设施

"让我收尾一下。第一，Blackwell 全面量产、客户需求爆棚——因为 reasoning AI 和 agentic AI 带来了算力拐点。第二，Blackwell NVLink72 + Dynamo 是 Hopper 的 40 倍 AI 工厂性能，推理会是未来十年最重要的 workload。第三，我们给了你年更节奏的路线图。我们在建三种 AI 基础设施——云的 AI 基础设施、企业的 AI 基础设施、机器人的 AI 基础设施。"

"谢谢你们来 GTC。Hey Blue，我们回家吧。"

原文出处：Rev.com 完整转录稿

链接到本页 21

…工厂只有一个任务：生成 token，然后我们把 token 重组成音乐、文字、视频、研究、化学分子、蛋白质。" > ——2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin 第二，AI 工厂的产能直接等于收入。这是 AI 工厂最反直觉的一面，也是 Token 经济卡片的…